本文由星环科技创始人&CEO孙元浩撰写并投递参与“数据猿年度金猿策划活动——2020大数据产业趋势人物榜单及奖项”评选。2020年是继往开来、里程碑式的一年,在这个十三五收官和十四五开启之年,我们国家经受住了新冠疫情的考验。其中,少不了大数据对城市疫情防控工作做出的有力支撑和保障。年初,全国各地纷纷上线了健康码,利用大数据技术第一时间判断个人的健康状况,发现疫情传染源头及追溯病情高发传染地点,帮助政府部门对各地进行精细化的疫情防控。最近,如上海的随申码还上线了“亲属随申码”的功能,帮助老人和小孩申领健康码,帮助部分老人跨越数字鸿沟。在疫情常态化的今天,健康码已不再只负责健康状态的查询和结果展示,在公共出行、医保、借书等各类公共服务和办事通道方面已经开始拓展及延伸。
2020年初,国家发改委多个部委提出了“新基建”的概念。中国在2001年加入WTO之后,其经济增长主要来自投资、出口、消费,到2010年,中国国际贸易占到世界GDP的60%左右。随着中美之间进入战略竞争阶段,意味着我们需要有更多的经济,意味着我们要专注于国内经济的内循环。在这个百年未有之大变局的情况下,全国各地政府积极加大新基建的建设,努力推动整个经济进入下一步发展周期。关于新基建建设,一方面是信息基础设施建设,包括机房、大数据软件、云等等;另一方面是融合基础设施建设,把新一代的新技术融合到各个行业当中去,加速他们的转型;此外还有创新基础设施,主要是一些基础的创新,偏重在核心技术方面的研究。我们可以看到,大数据技术实际上在各个行业当中都在不断融合,在新基建处于核心位置,加速各行业和企业的数字化转型。通过使用大数据技术、建设大数据平台,政府、交通、能源、制造等各行业均实现了数据的沉淀和汇集,挖掘了数据的潜在价值,最终使用大数据技术提高了自身的核心竞争力,实现了降本增效。展望2021年,我认为大数据行业将会迎来三大趋势。第一个趋势是随着大数据技术的演变,未来的大数据平台将需要具备多模型的特性。过去处理数据使用的是单机的关系型数据库,随着数据量的变大,大概在11年、12年的时候混合架构被提出,因为单个关系数据库已经无法处理日益增大的数据,就需要单机的关系数据库加一个MPP的架构,再加一个Hadoop的架构。Hadoop用来做百TP以上,MPP用来做几至十几TB的数据集,小数量放在关系型数据库或内存数据库中。这种架构被称为混合架构,也被称为第一代,它使用的还是用传统技术的拼接。到了大概09年之后,大家认为应该由一个引擎来处理所有的数据,不应该用混合架构。09年到15年这六年的时间,大家努力的目标就是用一个SQL引擎来处理不同的数据,用一个数据库来替代以前的多个混合架构的、不同的关系型数据库。这个我们称为第二阶段,这个阶段我们也提出一站式大数据平台的概念,我们刚刚创业的时候就提了这个理念,需要一个SQL引擎来解决不同数据量的数据问题,而且在每个数据量级上面效率都很高,比传统数据库都要快,甚至快一个数量级。这个过程大概在15年尘埃落定,大家已经认识到有单一引擎可以处理这个问题了,可以解决并替代混合架构了。当然今天国内还有很多客户没有采用一站式架构的,不是星环的客户大部分都采用混合架构。到了第三阶段我们又看到,除了关系型数据、结构化数据处理以外,还有很多非结构化数据,像图数据、文档数据、自然语言、文本。过去大家采用的是多种数据库技术,有用Neo4j做图数据库的,也有用Elastic做搜索引擎的,还有用MongoDB做文档数据库的,用Hadoop做文件存储的,用MPP来做机构化数据处理的,这种就是很多种不同数据库组合。现在一个明显的趋势,是能不能用一个平台来处理多种类型的数据,特别当大数据应用到多个行业中去的时候。有传感器数据,有影像数据,也有结构化的数据,在医疗行业更是如此,数据类型更多。现在一个新的趋势,是用一个统一的大数据平台,有核心的存储平台,有统一的计算引擎,有统一的接口。但它的存储模式是不一样的,可以支持文本,也可以支持结构化,也可以支持对象存储。这样可以极大的简化大数据平台本身的使用、运维,还有应用的开发,能够加速这个技术在各个行业中的应用,这个是比较明显的趋势。我们当时在2017年提出一个理念,用一个平台能够存储不同数据形态、不同数据模型,但上面计算引擎和SQL引擎接口都是一样的,这样极大简化开发的难度,同时也能够跨多种数据形态进行互相访问。现在不难看出这是一个比较明显的趋势,不管是我们星环还是国外的数据库软件公司都在往这个方向去努力,希望用一个平台处理不同类型的数据。第二大趋势是联邦学习的技术。数据过去是分散在不同地方的,放在不同的数据中心和不同的国家的,因为各个国家都有一些数据保护条例,很难把数据拿出来。另一类是有些客户的数据量太大,没办法放在一个数据中心,可能需要放在多个城市、多个地方。还有一种情况是不同的企业之间要进行数据共享,数据交换,但是因为数据的隐私,网络安全法,无法把原始数据直接给别人,这也是催生联邦学习的一个背景原因。联邦学习的概念是把机器学习的算法分发到不同的数据中心去,让算法在不同数据中心运算,但原始数据不会在网络上传输,确保用户隐私不会泄露出去,但能返回到需要的结果。今天联邦学习已经演变到细分的几个类别。有横向联邦学习,在特征趋同的情况夏对不同样本进行联合互补,用更大的样本数据提升现有模型的精度。有纵向联邦学习,比如同一个人,在样本趋同的情况下对不同特征进行联合互补,用更多的特征数据补全对某一客户样本的画像。也有迁移联邦学习,一类样本上面统一的模型可以迁移到另外一批上面。但是也有一些不同企业的数据,他们之间可能是互相影响的,这种情况下就需要用个性联邦学习来做统一的分析。有了这些技术的进步,数据的共享和交换变成可能,以前大家如果要把数据进行实际交换,很可能会触犯一些法律的底线,但是使用联邦学习方案可以做到数据不出户,仍然能达到统一分析的结果。在当今这个大家都把数据作为一个生产要素来实现流通交换的时代,联邦学习被认为是一个可行的技术路径。第三个趋势是AI的智能化技术。过去大数据分析主要被称为计算智能,通过分布式计算实现大规模的数据统一分析,这也是AI发展的第一个阶段。早先在06年以前的时候,大家是用分布式计算来解决机器学习效率问题,典型的比如Google的广告系统就是用分布计算来做机器学习的。这块主要的研究重点是用大量的机器组成一个超级计算机来做机器学习算法的分布式化,提升它的性能和精度,这个阶段被称为计算智能的阶段。09年以后,深度学习算法被发明出来了,这个算法在12年做人脸识别和图象识别时打败以往所有的算法。2009年也称之为机器学习的元年,从这一年开始,我们把AI作为感知智能阶段。一个很明显的特点是,有多少人工就有多少智能。因为感知智能需要大量的样本去进行训练,整个神经网络是一个黑盒子,需要大量的数据给它、教它,它才能训练出结果。一个识别算法要达到99.99%时,可能需要100万张样本。这个量是非常大的,是一个巨大的体力活。我们认为这个阶段中国人工智能应该会世界领先的,因为中国的劳动力优势,使得算法能够领先于美国,事实也是如此。到第三阶段,大家在研究机器能不能不用喂样本就可以自主学习,这也被称为强化学习。还有一部分叫迁移学习,运用已有的知识来学习新的知识,这样就使得劳动力优势丧失了,算法自动进行进化,这个阶段被称为认知智能阶段。除了自己学习以外,也过度到知识推理阶段,用知识图谱来做智能的问答,机器更加智能化了。这块也是现在正在研究的方向,我们称之为人工智能第三个阶段,即认知智能,也叫通用智能。今天我们进一步认为过了认知智能阶段,用推理技术,来构建知识图谱,在知识图谱上推理,发现更多新的知识。现在也有不少的金融机构开始使用图数据库和知识图谱。图数据库主要是用来做实时的反欺诈,进行快速查询,然后进行风控。知识图谱主要用来做企业风险分析,把企业相关信息全部集中在一起。过去被看作是相对静态的图谱今天经常被认为是动态的,它随着时间在变化,比如发生一个突发事件时,这个事件会产生什么影响,风险会如何扩散,我们需要一个动态的知识图谱来构建、描述,能够进行推测和推理。同时,我们增加了时序分析、地理空间分析,还有3D的展现,让图的操作更加简便。从以前用图来做异常检测、反欺诈,到后来用图来查询风险传播,来判断一个事件的影响,到现在我们把图计算和深度学习结合起来,在上面进行大规模的图分析,在前端用自然语言处理构建一个图。目前知识图谱已经在金融、国防工业、制造等多个行业开始得到使用。总地来说,多模型、云原生、联邦学习、智能化等技术都将助力大数据不断发展和革新。而现如今,数据作为生产要素、企业的重要资产和进步的源动力,被提升到国家战略的高度。未来,相信大数据技术将持续助力各行各业数字化转型,成为企业的核心竞争力。
1977年11月生。江苏省常州高级中学1996届毕业生,2003年南京大学计算机系硕士毕业,同年加入英特尔,曾是英特尔亚太研发有限公司数据中心软件部亚太区CTO。现任星环科技创始人、CEO。
现任上海市信息化专家委员会大数据专业委员会委员,中国人工智能产业发展联盟理事,星瀚大数据联合实验室副主任,上海市徐汇区科学技术协会委员。在大数据和人工智能的行业应用领域拥有多年的技术成就和丰富经验。作为项目负责人承担上海市级各类重大科技项目9项、拥有13项国内外专利(其中:国内发明专利1项,国际发明专利2项、欧盟发明专利2项、美国发明专利8项),并就大数据的行业应用发表多篇论文。曾入选上海领军人才培养计划,荣获至正杯上海科技企业家创新奖,上海十大杰出青商,中国大数据领军人物,中国数据英雄,互联网技术应用突出贡献人物,上海智慧城市建设领军先锋,上海市优秀学术技术带头人等多项荣誉。